iT邦幫忙

2023 iThome 鐵人賽

DAY 26
0
Modern Web

職缺資訊平台—Jobscanner系列 第 26

[開發] 資料彙整 - 評估

  • 分享至 

  • xImage
  •  

已知問題

  • 資料全抓或是只抓前幾頁?平台是否會認為請求數過大?需要這麼多資料嗎?

  • 各家關鍵字搜尋的欄位不相同,例如搜尋前端,有的是針對職稱,有的是只要職缺整份內容有有出現前端也算(如下圖),如果職稱沒有出現關鍵字要濾掉嗎?
    https://ithelp.ithome.com.tw/upload/images/20231011/201281229MFGEyqP1B.png

  • 和前一天比較資料的必要性?還是每天都是全新的一批職缺資料?


評估

資料筆數

  1. 資料全抓或是只抓前幾頁?是否會平台是否會認為請求數過大?需要這麼多資料嗎?
  2. 各家關鍵字搜尋的欄位不相同

參考先前 9/27 搜尋前端關鍵字的結果

  • 104:4650 筆 (共 100 頁)
  • yourator:218 筆 (共 11 頁)
  • CakeResume:1000 筆 (共 100 頁)

初估三個求職平台搜尋前端,全部會有 6000 筆以上的數據,


104 職缺數會有上千筆,在預設排序條件下,越後面的頁數,職缺的相關度越低
https://ithelp.ithome.com.tw/upload/images/20231011/201281229KSE4FXSv7.png

而在抓取 CakeResume 資料過程中,大約到 72 頁時,出現以下訊息:Too Many Requests
https://ithelp.ithome.com.tw/upload/images/20231011/20128122kRRAwVtPJX.png

初步評估後,決定先限制抓取的資料頁數,三個求職平台都抓 10 頁的內容

  1. 抓取平台 10 頁的內容
  2. 只留下職稱包含關鍵字
  3. 依照公司名稱排序

資料更新

資料要和前一天比較?還是每天都是全新的一批職缺資料?

原先規劃是每日 8:00 重新抓取平台資料,若該職缺於前一日未出現過,視為新職缺,會在元件上做標示

假設我是使用者,會想知道今日新增的職缺?還是想知道職缺更新的日期?
假設一週甚至一個月都沒使用,標示今日新增的職缺幫助大嗎?職缺網址可能沒變但內容有更新

關於更新狀態,求職平台的格式差異較大,整合上較困難

104 提供特定更新日期
https://ithelp.ithome.com.tw/upload/images/20231011/20128122s7pFyPMd2b.png

yourator 提供一週內更新、一個月前更新等描述文字
https://ithelp.ithome.com.tw/upload/images/20231011/201281223ZV19IvvoT.png

CakeResume 在列表中顯示的是雇主活躍度,必須點進內頁才有職缺的更新狀態
https://ithelp.ithome.com.tw/upload/images/20231011/20128122fm8dV0sPeF.png
https://ithelp.ithome.com.tw/upload/images/20231011/20128122vEHmolIpPD.png

難從既有資訊中得知職缺內容是否有異動,比對 URL 僅能得知有全新的職缺上架,考量標示新上架的職缺可能幫助不大,決定先不額外標示新職缺,每天都是全新的一批職缺資料!


上一篇
[開發] 資料彙整 - 乾淨的源頭
下一篇
[開發] 透過 Cloud Functions 將職缺資料寫入 Firestore
系列文
職缺資訊平台—Jobscanner31
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言